یادگیری ماشینی چیست؟

یادگیری ماشینی (ML) نوعی هوش مصنوعی (AI) است که به برنامه‌های نرم افزاری کمک می‌کند تا در پیش بینی نتایج دقیق‌تر شوند، در حالی که این برنامه‌ها برای این کار برنامه نویسی نشده باشند. الگوریتم‌های یادگیری ماشین از داده‌های قبلی به عنوان ورودی برای پیش بینی مقادیر خروجی جدید استفاده می‌کنند.

در موتورهای توصیه‌گر به صورت رایج از یادگیری ماشینی استفاده می‌شود. سایر کاربردهای محبوب این هوش مصنوعی عبارت‌اند از: فراد دیتکشن (تشخیص کلاه برداری)، فیلتر اسپم، شناسایی تهدیدهای بد افزارها، اتوماسیون فرایند کسب و کار (BPA) و نگهداری و تعمیرات پیش‌نگر (PdM).

 

چرا یادگیری ماشینی مهم است؟

یادگیری ماشینی مهم است زیرا چشم اندازی از روند رفتار مشتری و الگوهای عملیاتی تجاری برای شرکت‌ها فراهم می‌کند و همچنین از توسعه محصولات جدید پشتیبانی می‌کند. بسیاری از شرکت‌های پیشرو امروزی، مانند Facebook، Google و Uber، یادگیری ماشینی را به بخش مرکزی عملکرد خود تبدیل کرده‌اند. یادگیری ماشینی به یک تمایز رقابتی مهم برای بسیاری از شرکت‌ها تبدیل شده است.

انواع مختلف یادگیری ماشینی چیست؟

یادگیری ماشینی کلاسیک اغلب بر اساس نحوه یادگیری یک الگوریتم در پیش بینی دقیق‌تر طبقه بندی می‌شود. در یادگیری ماشینی چهار رویکرد اساسی وجود دارد: یادگیری نظارت شده، یادگیری بدون نظارت، یادگیری نیمه نظارت شده و یادگیری تقویتی. نوع الگوریتمی که دانشمندان داده، برای استفاده انتخاب می‌کنند بستگی به نوع داده‌هایی دارد که می‌خواهند پیش بینی کنند.

 

یادگیری نظارت شده (Supervised Learning): در این نوع یادگیری ماشینی، دانشمندان داده، الگوریتم‌هایی را با داده‌های آموزشی برچسب گذاری شده ارائه می‌کنند و متغیرهایی را که می‌خواهند الگوریتم برای همبستگی ارزیابی کند، تعریف می‌کنند. هم ورودی و هم خروجی الگوریتم مشخص شده است.

یادگیری بدون نظارت (Unsupervised Learning): این نوع یادگیری ماشینی شامل الگوریتم‌هایی است که روی داده‌های بدون برچسب آموزش می‌بینند. الگوریتم مجموعه داده‌ها را به دنبال هر گونه ارتباط معنی دار اسکن می‌کند. داده‌هایی که الگوریتم‌ها بر روی آن‌ها آموزش می‌بینند و همچنین پیش بینی‌ها یا توصیه‌هایی که آن‌ها تولید می‌کنند از قبل تعیین شده‌اند.

یادگیری نیمه نظارت شده (Semi-supervised Learning): این رویکرد برای یادگیری ماشینی شامل ترکیبی از دو نوع قبلی است. دانشمندان داده ممکن است الگوریتمی را با برچسب داده‌های آموزشی تغذیه کنند، اما این مدل آزاد است که داده‌ها را به تنهایی کشف کند و درک خود را از مجموعه داده توسعه دهد.

یادگیری تقویتی (Reinforcement Learning): دانشمندان داده معمولاً از یادگیری تقویتی برای آموزش به یک ماشین برای تکمیل یک فرایند چند مرحله‌ای استفاده می‌کنند که قوانین مشخصی برای آن وجود دارد. دانشمندان داده، الگوریتمی را برای تکمیل یک تسک برنامه نویسی می‌کنند و به آن نشانه‌های مثبت یا منفی می‌دهند که چگونه تسک را کامل کند. اما در بیشتر موارد، الگوریتم به تنهایی تصمیم می‌گیرد که چه مراحلی را در طول مسیر بگذراند.

یادگیری ماشینی نظارت شده چگونه کار می‌کند؟

در یادگیری ماشین نظارت شده نیاز است که دانشمند داده، الگوریتم را با ورودی‌های برچسب‌دار و خروجی‌های دلخواه آموزش دهند. الگوریتم‌های یادگیری نظارت شده برای کارهای زیر مناسب هستند:

طبقه بندی باینری: تقسیم داده‌ها به دو دسته.

طبقه بندی چند کلاسه: انتخاب بین بیش از دو نوع پاسخ.

مدل سازی رگرسیون: پیش بینی مقادیر پیوسته.

گروه بندی: ترکیب پیش بینی‌‌های چندین مدل یادگیری ماشینی برای تولید یک پیش بینی دقیق.

 

یادگیری ماشینی بدون نظارت چگونه کار می‌کند؟

الگوریتم‌های یادگیری ماشینی بدون نظارت نیازی به برچسب گذاری اطلاعات ندارند. آن‌ها داده‌های بدون برچسب را غربال می‌کنند تا به دنبال الگوهایی باشند که می‌توان از آن‌ها برای گروه بندی نقاط داده در زیر مجموعه‌ها استفاده کرد. اکثر انواع یادگیری عمیق، از جمله شبکه‌های عصبی، الگوریتم‌های بدون نظارت هستند. الگوریتم‌های یادگیری بدون نظارت برای کارهای زیر مناسب هستند:

خوشه بندی: تقسیم مجموعه داده‌ها به گروه‌ها بر اساس شباهت.

تشخیص ناهنجاری: شناسایی نقاط داده غیرعادی در یک مجموعه داده.

ارتباط کاوی: شناسایی مجموعه‌هایی از آیتم‌ها در یک مجموعه داده که اغلب با هم اتفاق می‌افتند.

کاهش ابعاد: کاهش تعداد متغیرها در یک مجموعه داده.

 

یادگیری نیمه نظارت شده چگونه کار می‌کند؟

یادگیری نیمه نظارت شده به این روش کار می‌کند که دانشمندان داده مقدار کمی از داده‌های آموزشی برچسب گذاری شده را به یک الگوریتم تغذیه می‌کنند. از این طریق، الگوریتم ابعاد مجموعه داده‌ها را می‌آموزد و سپس می‌تواند آن‌ها را روی داده‌های جدید و بدون برچسب اعمال کند.

عملکرد الگوریتم‌ها معمولاً زمانی بهبود می‌یابد که روی مجموعه داده‌های برچسب‌گذاری شده آموزش ببینند. اما برچسب زدن داده‌ها می‌تواند زمان بر و پر هزینه باشد. یادگیری نیمه نظارت شده بین عملکرد یادگیری نظارت شده و کارایی یادگیری بدون نظارت یک حد وسط ایجاد می‌کند. برخی از زمینه‌هایی که در آن یادگیری نیمه نظارت شده استفاده می‌شود عبارت‌اند از:

ترجمه ماشینی: آموزش ترجمه زبان به الگوریتم‌ها بر اساس اطلاعاتی کم‌تر از یک فرهنگ لغت کامل از کلمات.

فراد دیتکشن (کشف تقلب و تخلف): شناسایی موارد تقلب زمانی که فقط چند نمونه مثبت دارید.

برچسب گذاری داده‌ها: الگوریتم‌هایی که روی مجموعه داده‌های کوچک آموزش داده شده‌اند، می‌توانند به طور خودکار مجموعه‌های بزرگ‌تر داده را برچسب گذاری کنند.

 

یادگیری تقویتی چگونه کار می‌کند؟

یادگیری تقویتی با برنامه نویسی یک الگوریتم با یک هدف مشخص و مجموعه‌ای از قوانین تعریف شده برای دستیابی به آن هدف کار می‌کند.

همچنین دانشمندان داده، الگوریتم را طوری برنامه نویسی می‌کنند که به دنبال پاداش‌های مثبت باشد - که وقتی عملی را دریافت می‌کند که برای هدف نهایی مفید است آن را دریافت می‌کند - و از مجازات‌ها اجتناب کند - که این را نیز در صورت انجام عملی که آن را از هدف نهایی دورتر می‌کند دریافت می‌کند. یادگیری تقویتی اغلب در زمینه‌هایی مانند موارد زیر استفاده می‌شود:

رباتیک: ربات‌ها می‌توانند با استفاده از این تکنیک انجام وظایف دنیای فیزیکی را بیاموزند.

بازی‌های ویدئویی: از یادگیری تقویتی برای آموزش ربات‌ها برای بازی کردن تعدادی از بازی ویدئویی استفاده شده است.

مدیریت منابع: با توجه به منابع محدود و یک هدف تعریف شده، یادگیری تقویتی می‌تواند به شرکت‌ها در برنامه ریزی نحوه تخصیص منابع کمک کند.

یادگیری ماشینی مانند آماری است که دوپینگ کرده است.

چه کسانی از یادگیری ماشینی استفاده می‌کنند و برای چه مواردی از آن استفاده می‌شود؟

امروزه یادگیری ماشینی در طیف وسیعی از کاربردها استفاده می‌شود. شاید یکی از شناخته شده ترین نمونه‌های یادگیری ماشینی در عمل، موتورهای توصیه‌گری باشد که فید خبری Facebook را تامین می‌کند.

Facebook از یادگیری ماشینی برای شخصی سازی نحوه ارائه فید به هر عضو استفاده می‌کند. اگر عضوی مرتباً بر روی پست‌های یک گروه خاص برای خواندنشان توقف کند، موتور توصیه‌گر شروع به نشان دادن بیشتر فعالیت آن گروه در فید آن شخص می‌کند.

در پشت صحنه، موتور در حال تلاش برای تقویت الگوهای شناخته شده در رفتار آنلاین اعضا است. اگر آن شخص الگوهای خود را تغییر دهد و دیگر پست‌های آن گروه را در هفته‌های آینده نخواند، فید اخبار مطابق با آن تنظیم می‌شود.

علاوه بر موتورهای توصیه‌گر، کاربردهای دیگر برای یادگیری ماشینی شامل موارد زیر است:

  • مدیریت ارتباط با مشتری: نرم‌افزار CRM می‌تواند از مدل‌های یادگیری ماشینی برای تجزیه و تحلیل ایمیل استفاده کند و اعضای تیم فروش را ترغیب کند که ابتدا به مهم‌ترین پیام‌ها پاسخ دهند. سیستم‌های پیشرفته‌تر حتی می‌توانند پاسخ‌های بالقوه مؤثر را توصیه کنند.
  • هوش کسب و کار (BI): مسئولین هوش کسب و کار و تحلیل کسب و کار از یادگیری ماشینی در نرم افزار خود برای شناسایی نقاط بالقوه مهم داده، الگوهای نقاط داده و ناهنجاری‌ها استفاده می‌کنند.
  • سیستم‌های اطلاعات منابع انسانی (HRIS): سیستم‌های HRIS می‌توانند از مدل‌های یادگیری ماشینی برای بررسی کردن درخواست‌ها و شناسایی بهترین نامزدها برای یک جایگاه شغلی خاص استفاده کنند.
  • ماشین‌های خودران: الگوریتم‌های یادگیری ماشینی حتی می‌توانند این امکان را برای یک خودروی نیمه خودران فراهم کنند که شیئی که کاملاً قابل مشاهده نیست را تشخیص دهد و به راننده هشدار دهد.
  • دستیاران مجازی: دستیارهای هوشمند معمولاً مدل‌های یادگیری ماشینی نظارت شده و بدون نظارت را برای تفسیر گفتار طبیعی و زمینه عرضه ترکیب می‌کنند.

 

مزایا و معایب یادگیری ماشینی چیست؟

یادگیری ماشینی موارد استفاده از پیش بینی رفتار مشتری تا تشکیل سیستم عامل برای خودروهای خودران را به خود دیده است.

وقتی صحبت از مزایا به میان می‌آید، یادگیری ماشینی می‌تواند به شرکت‌ها کمک کند تا مشتریان خود را در سطح عمیق‌تری درک کنند. با جمع‌آوری داده‌های مشتری و ارتباط آن با رفتارها در طول زمان، الگوریتم‌های یادگیری ماشینی می‌توانند صفات گروه‌های مختلف را بیاموزند و به تیم‌ها کمک کنند تا ابتکارات توسعه محصول و بازاریابی را مطابق با تقاضای مشتری تنظیم کنند.

برخی از شرکت‌ها از یادگیری ماشینی به عنوان محرک اصلی در مدل‌های تجاری خود استفاده می‌کنند. برای مثال، Uber از الگوریتم‌هایی برای تطبیق رانندگان با مشتریان استفاده می‌کند. Google از یادگیری ماشینی برای نمایش تبلیغات در جستجوها استفاده می‌کند.

اما یادگیری ماشینی با معایبی همراه است. اول از همه، می‌تواند پر هزینه باشد. پروژه‌های یادگیری ماشینی معمولاً توسط دانشمندان داده هدایت می‌شوند که حقوق بالایی دارند. این پروژه‌ها همچنین به زیرساخت نرم افزاری نیاز دارند که می‌تواند پر هزینه باشد.

همچنین مشکل سوگیری یادگیری ماشینی وجود دارد. الگوریتم‌هایی که بر روی مجموعه‌های داده‌ای آموزش داده شده‌اند که جمعیت‌های خاصی را حذف می‌کنند یا حاوی خطا هستند، می‌توانند به مدل‌های نادرستی از جهان منجر شوند که در بهترین حالت، ناموفق و در بدترین حالت، تبعیض‌آمیز هستند. هنگامی که یک شرکت فرایندهای اصلی کسب و کار خود را بر اساس مدل‌های مغرضانه قرار می‌دهد، ممکن است با مشکلات قانونی و آسیب‌هایی به اعتبارش مواجه شود.

 

نحوه انتخاب مدل یادگیری ماشینی مناسب

فرایند انتخاب مدل یادگیری ماشینی مناسب برای حل یک مشکل، اگر به صورت استراتژیک مورد توجه قرار نگیرد، می‌تواند زمان‌بر باشد.

مرحله 1: مشکل را با ورودی‌های داده بالقوه‌ای که باید برای راه حل در نظر گرفته شوند، تراز کنید. این مرحله به کمک دانشمندان داده و کارشناسانی نیاز دارد که درک عمیقی از مشکل دارند.

مرحله 2: داده‌ها را جمع آوری کنید، آن‌ها را قالب بندی کنید و در صورت لزوم داده‌ها را برچسب گذاری کنید. این مرحله معمولاً توسط دانشمندان داده و با کمک آماده سازان داده هدایت می‌شود.

مرحله 3: الگوریتم(های) مورد استفاده را انتخاب کرده و با انجام آزمایش سطح عملکرد آن را ببینید. این مرحله معمولاً توسط دانشمندان داده انجام می‌شود.

مرحله 4: به تنظیم دقیق خروجی‌ها تا رسیدن به سطحی قابل قبول در دقت و درستی ادامه دهید. این مرحله معمولاً توسط دانشمندان داده به همراه دریافت بازخورد کارشناسانی که درک عمیقی از مشکل دارند انجام می‌شود.

اهمیت یادگیری ماشینی قابل تفسیر برای انسان

توضیح اینکه چگونه یک مدل یادگیری ماشینی خاص عمل می‌کند، هنگامی که مدل پیچیده‌ای است، می‌تواند چالش برانگیز باشد. در برخی از صنایع عمودی دانشمندان داده باید از مدل‌های یادگیری ماشینی ساده استفاده کنند، زیرا توضیح اینکه هر تصمیم چگونه گرفته شده است برای کسب‌وکار مهم است. این امر به ویژه در صنایعی که بارهای انطباق سنگینی دارند مانند بانک‌داری و بیمه صادق است.

مدل‌های پیچیده می‌توانند پیش بینی‌های دقیقی ایجاد کنند، اما توضیح نحوه تعیین خروجی به یک فرد غیرمتخصص می‌تواند دشوار باشد.

 

آینده یادگیری ماشینی چیست؟

الگوریتم‌های یادگیری ماشینی دهه‌ها وجود داشته‌اند، با این حال، با توجه به رشد هوش مصنوعی به محبوبیت جدیدی دست یافته‌اند. به ویژه مدل‌های یادگیری عمیق، که پیشرفته‌ترین برنامه‌های کاربردی هوش مصنوعی امروزی را تقویت می‌کنند.

پلتفرم‌های یادگیری ماشینی یکی از رقابتی‌ترین حوزه‌های فناوری سازمانی هستند؛ اکثر شرکت‌های بزرگ، از جمله Amazon، Google، Microsoft، IBM و غیره، برای جذب مشتریان به خدمات پلتفرمی که طیفی از فعالیت‌های یادگیری ماشینی را پوشش می‌دهند، از یکدیگر پیشی می‌گیرند؛ از جمله این فعالیت‌ها می‌توان به جمع‌آوری داده‌ها، آماده‌سازی داده‌ها، طبقه بندی داده‌ها، ساخت مدل، آموزش و استقرار برنامه، اشاره کرد.

با افزایش اهمیت یادگیری ماشینی در عملیات تجاری و کاربردی‌تر شدن هوش مصنوعی در تنظیمات سازمانی، جنگ پلتفرم یادگیری ماشینی تشدید می‌شود.

تحقیقات مداوم در زمینه یادگیری عمیق و هوش مصنوعی به طور فزاینده‌ای بر توسعه برنامه‌های کاربردی عمومی‌تر متمرکز شده است. مدل‌های هوش مصنوعی امروزی به آموزش گسترده نیاز دارند تا الگوریتمی تولید کنند که برای انجام یک تسک بسیار بهینه شده باشد. اما برخی از محققان در حال بررسی راه‌هایی برای انعطاف‌پذیرتر کردن مدل‌ها هستند و به دنبال تکنیک‌هایی هستند که به ماشین اجازه می‌دهد تا زمینه‌های آموخته شده از یک تسک را به تسک‌های مختلف آینده اعمال کند.

یادگیری عمیق به روش‌های بسیار متفاوتی نسبت به یادگیری ماشین سنتی عمل می‌کند.

یادگیری ماشینی چگونه تکامل یافته است؟

  • در سال 1642، شخصی به نام Blaise Pascal ماشینی مکانیکی اختراع کرد که می‌توانست جمع، تفریق، ضرب و تقسیم کند.
  • در سال 1679، شخصی به نام Gottfried Wilhelm Leibniz سیستم کد باینری را ابداع کرد.
  • در سال 1834، شخصی به نام Charles Babbage ایده‌ای برای یک دستگاه همه منظوره عمومی را که می‌تواند با کارت‌های پانچ شده برنامه ریزی شود را داشت.
  • در سال 1842، شخصی به نام Ada Lovelace رشته عملیاتی را برای حل مسائل ریاضی با استفاده از دستگاه تئوری پانچ کارت Charles Babbage توصیف کرد و تبدیل به اولین برنامه نویس تاریخ شد.
  • در سال 1847، George Boole منطق Bolean را ایجاد کرد، شکلی از جبر که در آن همه مقادیر را می‌توان به مقادیر باینری True یا False تقلیل داد.
  • در سال 1936، منطق‌دان و رمزنگار انگلیسی، Alan Turing، ماشینی را به جهان معرفی کرد که می‌توانست مجموعه‌ای از دستورالعمل‌ها را رمزگشایی و اجرا کند. اثبات منتشر شده او اساس علم کامپیوتر محسوب می‌شود.
  • در سال 1952، Arthur Samuel برنامه‌ای را ساخت که به رایانه IBM در پیشرفت و بهبود مهارت آن در بازی چکرز، هر چه بیشتر آن را بازی می‌کرد، کمک می‌کرد.
  • در سال 1959، MADALINE تبدیل شد به اولین شبکه عصبی مصنوعی که برای یک مشکل واقعی استفاده می‌شود: حذف پژواک از خطوط تلفن.
  • در سال 1985، شبکه عصبی مصنوعی Terry Sejnowski و Charles Rosenberg در طول یک هفته به خود آموخت که چگونه 20000 کلمه را به درستی تلفظ کند.
  • در سال 1997، Deep Blue از IBM، استاد بزرگ شطرنج، Garry Kasparov، را شکست داد.
  • در سال 1999، یک ایستگاه کاری هوشمند CAD نمونه اولیه 22000 ماموگرافی را بررسی کرد و سرطان را 52 درصد دقیق‌تر از رادیولوژیست‌ها تشخیص داد.
  • در سال 2006، دانشمند کامپیوتر، Geoffrey Hinton، اصطلاح «یادگیری عمیق» را برای توصیف تحقیقات شبکه عصبی اختراع کرد.
  • در سال 2012، یک شبکه عصبی بدون نظارت، ایجاد شده توسط Google، یاد گرفت که گربه‌ها را در ویدئوهای YouTube با دقت 74.8 درصد تشخیص دهد.
  • در سال 2014، یک چت بات تست تورینگ را با متقاعد کردن 33 درصد از قضات انسانی در اینکه او یک نوجوان اوکراینی به نام Eugene Goostman است، پشت سر گذاشت.
  • در سال 2014، AlphaGo از Google قهرمان انسان را در Go، دشوارترین بازی فکری در جهان شکست داد.
  • در سال 2016، LipNet، سیستم هوش مصنوعی DeepMind، کلمات را در ویدئو با لب خوانی با دقت 93.4 درصد شناسایی می‌کند.
  • در سال 2019، شرکت Amazon، 70 درصد بازار دستیاران مجازی را در ایالات متحده کنترل می‌کند.